长江证券:Kimi K2 Thinking训练成本460万美元 推理能力达SOTA水平
11月6日,KimiK2Thinking模型发布并开源,全面提升Agent能力与推理能力,并在训练成本方面再创新低。11月8日,OpenAI宣布上线GPT-5Codex-Mini,并针对ChatGPTPlus、Business和Edu用户提升了约50%的速率限
11月6日,KimiK2Thinking模型发布并开源,全面提升Agent能力与推理能力,并在训练成本方面再创新低。11月8日,OpenAI宣布上线GPT-5Codex-Mini,并针对ChatGPTPlus、Business和Edu用户提升了约50%的速率限
前不久,小编刚刚介绍了PaddleOCR开源最强OCR生态,不靠参数靠实力,56K+ Star见证实力(附开源地址),然而就在17日,百度又放出大招,最新开源的PaddleOCR-VL,以仅0.9B的参数量,在权威评测OmniDocBench V1.5中拿下9
百度登顶全球第一!最新模型「PaddleOCR-VL」以0.9B参数量,在全球权威榜单OmniDocBenchV1.5中以92.6分夺得综合性能第一,横扫文本识别、公式识别、表格理解与阅读顺序四项SOTA。
10月16日晚,百度正式发布并开源自研多模态文档解析模型PaddleOCR-VL。在全球权威文档解析评测榜单OmniBenchDoc V1.5中,PaddleOCR-VL以92.6分取得综合性能全球第一成绩,四大核心能力(文本、表格、公式、阅读顺序)全线SOT
近日,西湖大学研究团队推出一款“AI科学家”智能体系统——DeepScientist,首次大规模实证AI能够在前沿科学任务上逐步超越人类的SOTA(行业最佳)。
当人类还在为“科研是否需要创造力”争论不休时,西湖大学已经用一个AI系统砸穿了认知天花板。DeepScientist,这个名字听起来像科幻小说的存在,用两周时间干完了人类三年的活儿——5000个科学想法、1100次动手验证、3个前沿领域SOTA纪录刷新、5篇自
论文 西湖 研究员 sota deepscientist 2025-10-12 13:08 3
游戏理解领域模型 LynkSoul VLM v1,在游戏场景中表现显著超过了包括 GPT-4o、Claude 4 Sonnet、Gemini 2.5 Flash 等一众顶尖闭源模型。
提升 Pass@k:在提高 Pass@1 的同时,QuestA 不会降低 Pass@k 性能 —— 事实上,它通过让模型在多次尝试中进行更有效的推理,从而提升了模型能力。
实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。
高级编码能力:在公开基准与真实编程任务中,GLM-4.6 代码能力对齐 Claude Sonnet 4,是国内已知的最好的 Coding 模型;上下文长度:上下文窗口由 128K 增加至 200K,适应复杂的代码与智能体任务;推理能力提升,并支持在推理过程中调
一直以来,VLA模型训练走的都是“大规模预训练+有监督微调(SFT)”的路子。可这SFT简直是个“吞金兽”,要训练它得有大量高质量的机器人操作轨迹数据。
在大模型广泛应用的时代,如何让模型输出更符合人类价值观(如真实性、无害性、公平性)已成为关键挑战。传统方法通常依赖大量数据微调,成本高、效率低,且容易引入新风险。
谷歌最新发布的Gemini Robotics 1.5系列模型,让机器人真正学会了「思考」,还能跨不同具身形态学习技能。这意味着,未来的机器人将成为和人类协作、主动完成复杂任务的智能伙伴。
降低对大规模演示数据的依赖,提升数据效率;增强模型在分布偏移场景下的泛化能力;实现高效的Sim-to-Real迁移,提升真实世界任务性能。
谷歌最新发布的Gemini Robotics 1.5系列模型,让机器人真正学会了「思考」,还能跨不同具身形态学习技能。这意味着,未来的机器人将成为和人类协作、主动完成复杂任务的智能伙伴。
在 AI 大战最为激烈的 2025 年,全球使用最广泛的开源 AI 模型,来自阿里的通义大模型。毫不夸张地说,当全球开发者需要一个免费、好用、没有商业限制的模型时,它几乎成了默认选择。
本论文第一作者张勇为北京理工大学医学技术学院计算机技术专业硕士生,主要研究方向为联邦学习,多专家大模型,多任务学习和并行代理。通讯作者是深圳北理莫斯科大学人工智能研究院梁锋博士和胡希平教授。梁锋博士毕业于香港大学计算机科学专业,研究领域为分布式智能,包括分布式
深夜,阿里通义大模型团队连放三个大招:开源原生全模态大模型Qwen3-Omni、语音生成模型Qwen3-TTS、图像编辑模型Qwen-Image-Edit-2509更新。
官方介绍称,在保持了 LongCat-Flash-Chat 极致速度的同时,全新发布的 LongCat-Flash-Thinking 更强大、更专业。综合评估显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,
谢集,浙江大学竺可桢学院大四学生,于加州大学伯克利分校(BAIR)进行访问,研究方向为统一多模态理解生成大模型。第二作者为加州大学伯克利分校的 Trevor Darrell,第三作者为华盛顿大学的 Luke Zettlemoyer,通讯作者是 XuDong W